Bildgeneratoren auf Basis sogenannter Künstlicher Intelligenz (KI) können Bilder von sportlichen Senior*innen generieren. Aber nur, weil sie zuvor Unmengen an Bildern zum Thema verarbeitet haben. Eines dieser Bilder, mit denen KI-Bildgeneratoren trainiert wurden, stammt von Robert Kneschke. Der Fotograf hatte eine Gruppe Senior*innen im Fitnesscenter fotografiert und das Bild über eine Fotoagentur zur entgeltlichen Nutzung angeboten.
Der Link zum Bild und eine dazugehörige Beschreibung landeten in einem Datensatz, der fast sechs Milliarden Bild-Text-Paare umfasst und den der gemeinnützige Verein LAION zum Training von Bildgeneratoren kostenlos anbietet. Er wurde unter anderem zum Training von Stable Diffusion genutzt. LAION wurde Ende 2023 bekannt, weil der Trainingsdatensatz der Firma damals zahlreiche Links zu Abbildungen von sexuellem Missbrauch Minderjähriger enthielt.
Kneschke klagte gegen die Nutzung seines Bildes. Es war der erste KI-Urheberrechtsprozess in Deutschland. Doch das Landgericht Hamburg wies seine Klage am Freitag ab. Nach Paragraf 60d des Urheberrechtsgesetzes sei die Verwendung der Bilder für wissenschaftliche Forschung erlaubt. LAION falle unter diese Ausnahmeregelung. Kneschke muss nun seine Anwaltskosten und die der Gegenseite tragen.
„Ein schwarzer Tag für die kreative Gemeinde“
Robert Kneschke sagt gegenüber netzpolitik.org: „Es ist ein schwarzer Tag für die kreative Gemeinde in Deutschland.“ Aus seiner Sicht sei besonders problematisch, dass LAION eng mit der Firma Stability AI verzahnt sei, die den Bildgenerator Stable Diffusion betreibt. Es habe zum Beispiel personelle Überschneidungen gegeben.
Laut Paragraf 60d des Urheberrechtsgesetzes dürfen sich Institutionen, die mit einem privaten Unternehmen zusammenarbeiten, das einen bestimmenden Einfluss auf die Forschungsorganisation und einen bevorzugten Zugang zu den Ergebnissen der wissenschaftlichen Forschung hat, nicht auf das Wissenschaftsprivileg berufen. Doch ein solcher Zusammenhang konnte im Prozess nicht belegt werden.
„In der Firma wäre die Nutzung des Bildes verboten gewesen, so soll sie plötzlich legal sein. Das Ergebnis bleibt das Gleiche, mit dem Unterschied, dass gleich mehrere Firmen profitieren. Ich finde das eine Frechheit“, sagt Kneschke.
Wie man der Nutzung widerspricht
Das Landgericht Hamburg hat sich auch mit der Frage auseinandergesetzt, ob der Erfassung der Bilder rechtsgültig widersprochen wurde. Nach Paragraf 44b des Urheberrechtsgesetzes ist die automatisierte Erfassung von Daten nicht erlaubt, wenn der Rechteinhaber ihr in maschinenlesbarer Form widerspricht. Auf der Seite der Fotoagentur wurde die Erfassung in natürlicher Sprache abgelehnt.
Da die sogenannte KI jedoch auch in natürlicher Sprache geschriebene Texte inhaltlich erfassen kann, sei, so das Gericht, der Vorbehalt rechtskräftig gewesen. Wenn es also nicht um wissenschaftliche, sondern kommerzielle Zwecke gegangen wäre, wäre der Widerspruch in natürlicher Sprache gültig. Das sei auch von der KI-Verordnung der EU gedeckt, nach der zur Ermittlung eines möglichen Nutzungsvorbehalts auch modernste Technologien einzusetzen sind.
Kneschke überlegt, ob er gegen die Entscheidung des Landgerichts in Berufung gehen soll. Für Menschen, die derweil den Programmen, die Daten im Internet sammeln, Einhalt gebieten wollen, hat er auf seiner Website eine Anleitung veröffentlicht, die zeigt, wie man dazu eine maschinenlesbare Datei namens robots.txt schreibt. Eine solche Datei wird auf Webseiten benutzt, um beispielsweise einer Indizierung durch Suchmaschinen zu widersprechen – oder eben auch Firmen, die die Inhalte zum Trainieren benutzen. Ob die eigenen Daten bereits zum Training von Künstlicher Intelligenz genutzt wurden, zeigt die Seite haveibeentrained.com.
Ein generiertes Bild kann immer noch einen Urheberrechtsbruch bedingen. Sogar die Nutzung der Modelle in einem (kommerziellen?) Generator könnte illegal sein, wenn solche Bilder inkludiert werden, wenn ich mich da nicht täusche.
Denn die Modellschnitzer von LAION machen nur erst mal diese Modelle. Das ist noch kein Generator, wohl aber ein enzyklopädisches Abbild der Trainingsdaten. Das muss man wissen, wenn man darüber urteilt. Wenn das so weit Wissenschaft ist, mag das vielleicht sogar ok sein. Frage bleibt, was ab da passiert.
Ansonsten… Opt-Out-Zwang? – Das Internet ist einen Tick weit gefährlicher geworden, oder zwei. Deutschlandweit zunächst, nehme ich mal an.
Hier geht es wohl „nur“ um die Zusammenstellung von Links auf Bilder, gegebenenfalls mit Vorhalten von Metadaten wie Text, Beschreibung und weiterem, welche davon auch immer von einer verlinkten Quelle stammen.
Während Laion auch Modelle anbietet, geht es in diesem Falle um eine Linkliste, für deren Erstellung die Bilder allerdings analysiert wurden. Das ist noch nicht mal ein trainiertes Modell. Das Gericht erlaubt also die Analyse von urheberrechtlich geschützten Bildern zu wissenschaftlichen Zwecken, ohne dauerhafte Speicherung.
Damit hat man jetzt aber sämtliche Raubkopierportale legalisiert, wenn diese einfach eine Forschungsgruppe draus machen.
Ich bin schwer enttäuscht von diesem Artikel. Hyperlinks zu Bildern zu sammeln, fällt nicht unter Urheberschutz. Und auch diese Hyperlinks zu beschreiben, fällt nicht darunter.
Ich habe nichts übrig für KI-„Kunst“. Aber von Urheberrecht halte ich noch weniger. Oft können sich die kleinen Künstler gar nicht in ihrem Recht durchsetzen. Siehe die Situation auf YouTube. Wenn sich das noch ausweitet, kann das nichts Gutes bringen.
Dieser Artikel spiegelt meine Auffassung gut wieder: https://www.eff.org/deeplinks/2023/04/how-we-think-about-copyright-and-ai-art-0
Noch mal den eigenen Namen überdenken: Dieser Artikel beschreibt, wie die Bilder zu den gesammelten Hyperlinks eben zu diesem Zweck heruntergeladen wurden, zur Analyse.
Wenn überhaupt kritisieren Sie also bitte das deutsche Recht, wo es noch geklärt werden muss, ob Herunterladen und wieder Löschen eine Kopie darstellt. Man muss aber auch bedenken, dass ein aus diesen Trainingsdaten erstelltes Modell, gegen den Willen der Urheber erschaffen würde, bzw. wird. Damit hat sich das Gericht noch nicht mal befasst.
Es kann nicht sein und nicht der Sinn einer robots.txt, diese ständig zu modifizieren und mit neuen Botsnamen auszurüsten. Ein Wettrennen mit ständig neuen Bots?? Auch halten diese dreisten „schmutzigen“ Firmen sich nicht dran! Ein generelles Bottverbot am Anfang der Datei muss reichen, dann wenn man eine Suchmaschine wünscht, hierzu eine Außnahme machen .
Man muss heute auch drekige dreistfalsche Inhalte „Salz in die Suppe tun“ zur Teuschung von Bots nutzen. Texte und Bilder mit falschen Inhalte, die nur durch die Bots erfast werden!
> Es kann nicht sein und nicht der Sinn einer robots.txt, diese ständig zu modifizieren und mit neuen Botsnamen auszurüsten.
Ja, bots sind eine Plage, aber dein Lamento löst administratorisches Fremdschämen aus.
Die robots.txt hat exakt diese Aufgabe, und sie erfüllt genau den beabsichtigten Zweck (wenn sich bots denn daran halten). So wie du andere Konfigurationsdateien aktualisieren musst, so ist es auch hier deine verdammte Pflicht, das ordentlich zu tun.
Recht muss ich dir geben
Selbstverständlich sollten robots.txt immer von zuständigen Administratoren aktualisiert werden, dass ist und war nicht der springende Punkt gewesen.
Die Effektivität und Effizienz der robots.txt war gemeint … Ist leider so nicht rüber gekommen.
Ja nee, is klar. Das Updaten soll aber nur geschehen, um neue Bots zuzulassen. Andersherum wäre es ein fremdschämwürdiges Antiadministrationsevent, für das kein Arbeitgeber dieser Welt – , und das mit Recht! – aufkommen würde.
Leider kann man nicht „für Wissenschaft nach EU-Richtlinie 123456“ setzen. Ist halt ein kaputtes Blödsystem, was immerhin ETWAS tun würde, wenn sich die KI-Kokserstartups auch daran halten würden.
Lässt sich das nicht z.B. auch auf die kommende ePA etc nutzen ? Wie sieht es mit Gemini, Copilot.. aus die tief im OS verankert sind… da die KI’s ja Lokal auf alles Zugriff haben, hat dann eine „Forschungseinrichtung“ automatisch das Recht sich alles zu krallen und weiter zu „verschenken“?
Interessant ist schon die Frage, in Zeiten von opportunistischen Startups, ob so eine Linksammlung dann entsprechend gekennzeichnet ist (Copyrightwarnung).
Vor allem, falls das wissenschaftlich oder non-profit sein soll, könnte man Einstufungen vornehmen. (Vielleicht passiert das sogar hier/dort. Immerhin werden die Modelle/Datensätze in Text wohl mindestens kurz erklärt.)